Opis
danych
Dane użyte w projekcie zostały pozyskane ze strony internetowej
Otomoto, obejmując różnorodne informacje dotyczące ofert sprzedaży
samochodów marki Audi. Zbiór danych zawiera kilka cech samochodów:
model, rok produkcji, typ skrzyni biegów, przebieg, pojemność silnika,
rodzaj paliwa, moc, spalanie i cena. Każdy rekord w ramce danych jest
konkretną ofertę sprzedaży na platformie w dniu 27.12.2023
Cele
projektu
1. Wizualizacja Danych: Przeprowadzenie analizy danych przy użyciu
różnorodnych technik wizualizacji danych. Celem jest zrozumienie
struktury danych, identyfikacja relacji między cechami oraz wykrycie
interesujących trendów na rynku samochodowym.
2. Predykcja Cen: Wykorzystanie technik modelowania predykcyjnego do
przewidzenia cen samochodów na podstawie dostępnych cech. Stworzenie
modelu, który będzie w stanie oszacować wartość pojazdu na podstawie
różnorodnych czynników, takich jak przebieg, rok produkcji czy rodzaj
paliwa.
3. Analiza Trendów Rynkowych: Identyfikacja i zrozumienie trendów
rynkowych na podstawie zebranych danych. Analiza, jak różne czynniki
wpływają na ceny samochodów oraz jakie są preferencje nabywców w dniu
dzisiejszym na rynku.
Import ramki
danych
Niżej jest reprezentowane dane, którzy były pobrane i zapisane w
pliku csv jako dataset. (scraper i tworzenie ramki danych jest w pliku
“scraper.r”)
## model year transmission mileage engineSize fuelType hp lkm price
## 1 A3 2009 Automatyczna 220800 1968 Diesel 140 7.2 36900
## 2 A6 2005 Manualna 137400 2698 Diesel 180 9.0 23900
## 3 A1 2019 Automatyczna 30485 999 Benzyna 116 5.0 83500
## 4 RS4 2021 Automatyczna 41000 2894 Benzyna 450 12.0 299000
## 5 A6 2012 Automatyczna 143600 1968 Diesel 177 6.0 64000
## 6 A4 2012 Manualna 308000 1968 Diesel 143 5.0 35800
## 7 Q5 2023 Automatyczna 1 1968 Diesel 204 6.0 267800
## 8 A3 2023 Automatyczna 1 1498 Benzyna 150 6.0 128800
## 9 S8 2023 Automatyczna 10 3996 Benzyna 571 6.0 696600
## 10 A4 2016 Manualna 259000 1968 Diesel 150 4.0 67900
Możemy zauważyć, że mamy różne auta: jak nowe (1km przebiegu) tak i
stare. Także mamy sportowe auta (RS4, S8), które mają ponad 450 koni
mechanicznych.
## Liczba wartości pustych: 0
## Liczba duplikowanych wierszy: 0
W naszej ramce danych już są usunięte wartości puste i wierszy
duplikowane, więc możemy przejść do następnego etapu..
Wizualizacja
danych
Na wykresie mamy liczbę ogłoszeń w zależności od roku produkcji
samochodu. Widzimy, że większość ogłoszeń to samochody z lat 2008-2022.
Także na stronie są duża liczba samochodów nowych (1500 ogłoszeń w
porównaniu z 500-700) i nawet już jest kilka samochodów z 2024 roku
(przedsprzedaż)
Z wykresu wyżej możemy zauważyć, że najwięcej samochodów to Audi A4
i A6, które są samochodami rodzinnymi (sedany z dużą ilością miejsca na
tylnych siedzeniach i dużym bagażnikiem). Najmniej to samochody stare
(modele 90,200,100) i sportowe (RS lub S pakiety).
Stosownie skrzyń biegów: Po 2010 roku obserwujemy szybki wzrost
automatycznych skrzyń biegów i prawie całkowita dominacja na rynku po
2019, liczba samochodów z manualną sb jest blisko zera. (skok
automatycznych skrzyń do 1500 w 2023 roku wynika ze skoku ogólnej liczby
samochodów)

Większość ogłoszeń samochodowych mają silnik diesla, na drugim
miejscu jest benzyna i bardzo mały procent jest
hybrydowych/elektrycznych/LPG (mniej niż 2%)
Dla silników diesla i benzynowych zrobiłem taki wykres, który da nam
3 wnioski:
1. Zużycie paliwa wzrasta wraz ze wzrostem pojemności silnika (co
jest logiczne w silnikach spalinowych)
2. Diesel mniej pali na 100km niż Benzyna
3. Najwięcej jest silników z pojemnością 2 lub 3 litry.
Analogicznie z mocą silnika. Ogólnie wzrasta wraz ze wzrostem
pojemności, chociaż są rekordy z mocą 600 KM i pojemnością do 2000cm3.
Największą moc ma rekord z pojemnością silnika 3993 cm3
## model year transmission mileage engineSize fuelType hp lkm price
## 1 RS Q8 2022 Automatyczna 15 3996 Benzyna 600 17.0 1250000
## 2 R8 2024 Automatyczna 5 5204 Benzyna 620 20.0 1211200
## 3 R8 2023 Automatyczna 10 5204 Benzyna 620 8.0 1205500
## 4 R8 2024 Automatyczna 5 5204 Benzyna 620 9.4 1102780
## 5 R8 2023 Automatyczna 1 5204 Benzyna 620 20.0 1049000
Powyżej pokazano 5 najdroższych samochodów Audi na stronie otomoto.
Wszystkie są nowe, sportowe, wycenione na ponad 1.000.000 zł (~
250.000$). R8 jest supersamochodem marki Audi, RS Q8 - sportowa wersja
SUV’a Q8.
Odnośnie do cen, zrobiłem kilka podziałów i wykres słupkowy, żeby
zobaczyć jakich samochodów jest najwięcej. Zdziwiłem się, gdy
zobaczyłem, że tak mało jest samochodów w cenach 80-100 tys., bo
myślałem, że to jest najpopularniejszy budżet na samochód tej marki
Na wykresie pudełkowym widzimy, że wartości odstające to cennik >
346000 zł. Minimalna wartość - 1000, maksymalna - 1250000. Jednak nie
widać dobrze innych ważnych cech, dla tego niżej zrobiłem skalowalny
wykres
Teraz możemy zobaczyć inne wartości:
- Mediana ~ 46tys.
- Pierwszy kwartyl (Q1) ~ 25tys.
- Trzeci kwartyl (Q3) ~ 70tys.
Zauważmy, że samochody z automatyczną skrzynią biegów są droższe niż
z manualną. Q1, Q3 dla automatycznej skrzyni biegów - 40.000, 80.000
odpowiednio. Dla manualnej - ~20.000 Q1 i ~50000 Q3. Także widzimy
wartości odstające dla skrzyni manualnej po 95.000 złotych.
Średnio, cena wzrasta około 20tys. za rok. W 2022-2024 trochę
więcej, bo w tych latach samochody są nie używane, przebieg minimalny,
stan idealny

Ostatni wykres, odpowiadający cenie, jest połączeniem wcześniejszych
ustaleń i obserwacji: najdroższe są samochody z automatyczną skrzynią
biegów i silnikami benzynowymi, to cechy, które występują w modelach
sportowych (R8, RS, S)

Powyżej możemy zobaczyć zależności pomiędzy zmiennymi
przedstawionymi na mapie korelacji
Wnioski:
- Cena zależy bardzo od roku produkcji i liczby koni
mechanicznych
- Moc zależy od pojemności silnika
- Spalanie zależy od mocy i pojemności
- Rok produkcji lub cena maleje, a przebieg rośnie (odwrotnie
proporcjonalnie)
- Cena jest w słabej relacji ze spalaniem silnika
Podsumowując, wszystkie zależności i wnioski są logiczne na
podstawie zasad działania silników spalinowych i ogólnych trendów
panujących na rynku
Przygotowanie
danych do tworzenia modelu predykcyjnego

Z wykresów obserwujemy, że w każdej kolumnie z danymi ciągłymi są
wartości odstające, więc usuwam ich za pomocą metody IQR.
IQR = Q3 - Q1
Dolna granica = Q1 - 1.5 * IQR, Górna granica = Q3 + 1.5 * IQR.
Wszystkie wartości poza granicami - odstające

Teraz nasze dane nie mają wartości odstających i możemy już
rozdzielić ramkę danych na treningowy i testowy zbiory. Treningowy (80%
zbioru) - zbiór, używany do nauczania modelu, a testowy(20% zbioru)
służy do oceny skuteczności modelu na danych, które nie były używane w
procesie uczenia. Naszym targetem jest kolumna “price”, wszyscy inni
kolumny to predyktory
## Liczba rekordów w zbiorze treningowym: 8956 8
## Liczba rekordów w zbiorze testowym: 2236 8
Budowa
modelu, jego analiza
Także zrobiłem skalowanie numerycznych zmiennych. Buduję modele
predykcyjne Random Forest i Linear Regression. Niżej, za pomocą wykresu
krópkowego, przedstawiona jest różnica prewidywanych wartości i wartości
rzeczywistych dla każdej metody, a także wartość współczynika korelacji
R2.

## Wartość R2: 0.91
Model jest dobrze zbudowany, wartość współczynnika determinacji jest
dość wysoka.

## Wartość R2: 0.8
Widzimy, że dla regresji liniowej wartość jest niższa niż dla lasu
losowego, jednak można jeszcze zwiększyć precyzyjność naszego modelu,
nie usuwając wartości odstających. Dla tego ponownie importuję dane z
pliku, podzielę ramkę danych na testowy i treningowy zbiory i zbuduję
jeszcze raz modele.

## Wartość R2: 0.92

## Wartość R2: 0.83
Podsumowanie
Projekt umożliwił zrozumienie struktury danych rynku samochodowego i
stworzył narzędzie prognostyczne do szacowania cen samochodów.
Zaimplementowane wizualizacje pomogły zidentyfikować kluczowe
zależności. Analiza trendów rynkowych pozwala zrozumieć aktualne
preferencje kupujących.